现代语言模型中的检测和缓解有害偏见被广泛认为是至关重要的开放问题。在本文中,我们退后一步,研究语言模型首先是如何偏见的。我们使用在英语Wikipedia语料库中训练的LSTM架构,使用相对较小的语言模型。在培训期间的每一步中,在每个步骤中都会更改数据和模型参数,我们可以详细介绍性别表示形式的发展,数据集中的哪些模式驱动器以及模型的内部状态如何与偏差相关在下游任务(语义文本相似性)中。我们发现性别的表示是动态的,并在训练过程中确定了不同的阶段。此外,我们表明,性别信息在模型的输入嵌入中越来越多地表示,因此,对这些性别的态度可以有效地减少下游偏置。监测训练动力学,使我们能够检测出在输入嵌入中如何表示男性和男性性别的不对称性。这很重要,因为这可能会导致幼稚的缓解策略引入新的不良偏见。我们更普遍地讨论了发现与缓解策略的相关性,以及将我们的方法推广到更大语言模型,变压器体系结构,其他语言和其他不良偏见的前景。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
我们研究了现代神经语言模型容易受到结构启动的程度,这种现象使句子的结构在后续句子中更有可能使相同的结构更有可能。我们探索如何使用启动来研究这些模型学习抽象结构信息的潜力,这是需要自然语言理解技能的任务良好表现的先决条件。我们引入了一种新型的度量标准和释放Prime-LM,这是一个大型语料库,我们可以控制与启动强度相互作用的各种语言因素。我们发现,变压器模型确实显示了结构启动的证据,但他们所学到的概括在某种程度上是由语义信息调节的。我们的实验还表明,模型获得的表示不仅可以编码抽象的顺序结构,而且还涉及一定级别的层次句法信息。更普遍的是,我们的研究表明,启动范式是一种有用的,可用于洞悉语言模型能力的有用的,并为未来的基于底漆的调查打开了探测模型内部状态的未来大门。
translated by 谷歌翻译
尽管基于术语的方法(例如BM25)在排名方面提供了强大的基准,但在某些条件下,它们由大型预训练的蒙版语言模型(MLMS)(例如BERT)主导。迄今为止,其有效性的来源尚不清楚。他们是通过建模句法方面真正理解含义的能力吗?我们通过以破坏查询和通道的自然序列顺序来操纵输入顺序和位置信息来回答这一点,并表明该模型仍然可以实现可比性的性能。总体而言,我们的结果凸显了句法方面在与BERT重新排行的有效性中没有关键作用。我们指出了其他机制,例如查询通行的交叉注意事项和更丰富的嵌入,这些机制是基于汇总上下文捕获单词含义的,而不管是订单词的主要属性,无论是其出色表现的主要归因。
translated by 谷歌翻译
在处理自动化数据驱动的决策中的敏感数据时,一个重要的问题是学习具有高性能的预测因素对类标签进行高性能,同时最小化对从偏置数据引起的性别或种族的任何敏感属性的歧视。存在一些混合树优化标准,即结合分类性能和公平性。虽然无阈值ROC-AUC是测量传统分类模型性能的标准,但目前的公平树分类方法主要针对分类任务以及公平度量的固定阈值优化。在本文中,我们提出了一种复合分裂标准,其将无阈值(即,强)人口统计平价与Roc-Auc称为公允剧的Scaff - 分裂标准AUC - 并且容易延伸到袋装和提升的树框架。我们的方法同时利用多个敏感属性,其中值可以是多语言的或交叉的,并且可以针对不可避免的性能公平折衷来调谐。在我们的实验中,我们展示了Scaff如何在二进制,多语言和多敏感属性方面产生具有性能和公平的模型。
translated by 谷歌翻译